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(57) Abstract 

The text to be classified is compared with the contents of a relevance lexicon in which the significant words of the te ****** 
classified sto^T according to text class and their relevance for the text classes. The blurred quantity (fuzzy quantity) which ndxates 
S?5SiSf?iS?2?of f significant words of the text to be classified and their relevance for the text class .s plated. A 
^lu^cuStion determines the degree of probability with which the fuzzy quantity occurs per class for the class .n question. The 
class with the highest degree of probability is selected and the text is assigned to this class. 
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(57) Zusammenfassung 

^ k, ^ sifizicrCl ^ C Tcxt wird mil dcm ,nhalt cincs Rclcvanzlcxikons verglichen, in dcm die signifikantcn Waiter der zu 
Wassifiziercndcn Textc pro Textklasse und deren Relevanz fur die Textklassen gespeicheit ist. Es wird die unscharfe Menge (Fuzzymenge) 
rJ^t t?J?f% ^^ lfi ^ ten K W <fc des zu klassifizierenden Textes deren Auftreten pro Textklasse und deren Relevanz fur die 
Textklasse angibt. Mit einer Wahrscheinlichkeiteberechnung wird ermittelt, mit welcher Wahrscheinlichkett die Fuzzymenge pro Klasse ftir 
die entsprechende Klasse auftritt Die Klasse mit der hochsten Wahrscheinlichkeit wird ausgewahlt und dieser Klasse der Text zugeordnet 
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Beschreibung 

Verfahren zur automatischen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
5 digicale Daten 

Aus [l] ist ein System bekannt, mit dem z. B . Geschaf tsbrief - 
dokumente kategorisiert werden konnen und dann in elektroni- 
scher oder Papierform weitergeleitet werden konnen, bzw. ge- 

10 zielt abgelegt werden konnen. Dazu enthalt das System eine 

Einheit zur Layoutsegmentierung des Dokumentes, eine Einheit 
zur optischen Texterkennung, eine Einheit zur Adressenerken- 
nung und eine Einheit zur Inhaltsanalyse und Kategorisierung . 
Fur die Segment ierung des Dokumentes wird ein gemischter bot- 

15 tom-up- und top-down-Ansatz benutzt, der als Einzelschritte 
die 

• Erkennung der zusammenhangenden Komponenten , 

• Erkennung der Textlinien, 

• Erkennung der Buchstabensegmente , 
20 • Erkennung der Wortsegmente und 

• Erkennung der Absatzsegmente umf afit . 

Die optische Texterkennung ist in drei Teile gegliedert: 

• Buchstabenerkennung in Kombination mit lexikonbasierter 
2 5 Wor tver i f ikat ion , 

• Worterkennung, 

mit der Klassif izierung aus Buchstaben und wortbasierter 
Erkennung . 

30 Die Adresserkennung wird mit einem unif ikationsbasierten Par- 
ser durchgef uhrt , der mit einer attributierten kontextf reien 
Grammatik fur Adressen arbeitet . Im Sinne der AdreSgrammatik 
korrekt geparste Textteile sind dement sprechend Adressen. Die 
Inhalte der Adressen werden uber Merkmalsgleichungen der 

35 Grammatik bestimmt. Das Verfahren wird in [2] beschrieben. 
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Fur die Inhaltsanalyse und Kategorisierung werden Informati- 
on-Retrieval Techniken zur automatischen Indexierung von Tex- 
ten benutzt . Im einzelnen sieht dies wie f olgt aus : 

• Morphologische Analyse der Worter 

• Eliminierung von Stoppwortern 

• Erstellung einer Wortstatistik 

• Berechnung des Indextermgewichts mit aus dem Informations- 
Retrieval bekannten Formeln, wie z. B. der inversen Doku- 
menthauf igkeit . 

Mittels der so berechneten Indextermgewichte wird nun fur al- 
le Kategorien eine dreistufige Liste signif ikanter Worter er- 
mittelt, welche die jeweilige Kategorie charakterisiert . Wie 
in [l] beschrieben, werden diese Listen nach der Trainings - 
phase noch manuell iiberarbeitet . 

Die Kategorisierung eines neuen GeschSf tsbrief es erfolgt dann 
durch den Vergleich der Indexterme dieses Brief es mit den Li- 
sten der signif ikanten Worter fur alle Kategorien. Die Ge- 
wichte der im Brief enthaltenen Indexterme werden je nach Si- 
gnifikanz mit einer Konstanten multipliziert und aufsummiert. 
Durch Teilen dieser Summe durch die Anzahl der Indexterme im 
Brief ergibt sich somit fur jede Klasse eine Wahrscheinlich- 
keit. Die genauen Berechnungen ergeben sich aus [3] . 
Ergebnis der Inhaltsanalyse ist dann eine nach Wahrschein- 
lichkeiten sortierte Hypothesenliste . 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
Verfahren anzugeben, nach dem die Inhaltsanalyse des Textes 
und damit die Textklassif ikation verbessert wird. Dabei wird 
davon ausgegangen, daS der Text des Dokumentes bereits als 
digitale Daten vorliegt, die dann weiterverarbeitet werden. 

Diese Aufgabe wird gemafi den Merkmalen des Patentanspruches 1 
gelost . 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen. 

Ein Anwendungsf all des Verfahrens ist die automatische Dia- 
5 gnose aus medizinischen Befunden. Fasst man einen medizini- 
schen Befund als Text und eine Krankheit als eine Klasse auf , 
so kann man das Problem der automatischen Diagnose mit dem 
Verfahren der Textklassif ikation losen. Ein wesentlicher Vor- 
ceil des Verfahrens ist, daS es aus einer Menge von Befunden, 
10 deren Diagnose bekannt ist, automatisch und unuberwacht das 

zur Klassif ikation n6tige Wissen lernt . Fut den Arzt ist kein 
zusatzlicher Aufwand notig, er mufi nur wie gewohnt den Befund 
schreiben. Gelernt wird aus den bereits vorhandenen Befunden. 
Nach der Trainingsphase wird dann mit Hilfe der gelernten 
15 wissensquelle und Techniken der Fuzzy -Mengen ein Befund klas- 
sif iziert. Die dem Befund zugeordnete Klasse entspricht der 
diagnostizierten Krankheit. 

Es wird zunachst davon ausgegangen, daS der zu untersuchende 
20 Text bereits in Form von ASCII-Daten vorliegt. 

Vor der inhaltlichen Analyse eines Textes wird eine morpholo- 
gische Analyse durchgef uhrt , die im ersten Schritt alle Wor- 
ter lemmatisiert (d.h. auf ihre Stammformen reduziert) und 
25 dann mit einem stochastischen Tagger lexikalische Mehrdeutig- 
keiten auf lost. Fur die Lemmatisierung kann ein Verfahren 
nach [4] verwendet werden. Eine Beschreibung des verwendeten 
Taggers kann [5] entnommen werden. Ausgangspunkt fuer alle 
weiteren Bearbeitungsschritte ist immer der getaggte Text . 

30 

Die Textklassif ikation ist trainingsbasiert . Aus einer Menge 
von Trainingstexten, deren Klassen bekannt sind, wird die 
Haufigkeit von Klassen, von Wortern insgesamt und von Wortern 
in den jeweiligen Klassen gezahlt. Mit diesen Haufigkeiten 
3 5 wird dann die empirische Korrelation zwischen einem Wort und 
einer Klasse nach Pearson [6] berechnet . Diese Korrelation 
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wird fur alle Worter und alle Klassen berechnet und gilt als 
Relevanz eines Wortes fur eine Klasse. 

Beriicksichtigt werden nur Korrelationen groSer einem Wert 
5 r_max, der sich aus der Priifung der Unabhangigkeit auf einem 
Signif ikanzniveau von z. B. 0.001 ergifat (siehe hierzu z. B. 
[7]). Als Ergebnis erhalt man ein Lexikon, das die Relevanzen 
der Worter fur die Klassen enthSlt. 

10 Ein Text wird nach dessen morphologischer Analyse mit Hilfe 
dieses Relevanzlexikons wie folgt klassif iziert : Fur jede 
Klasse wird eine unscharfe Menge ermittelt, die alle relevan- 
ten Wdrtern enthalt. Die Zugehdrigkeitsfunktion \iA der un- 
s char fen Menge entspricht gerade dem KorrelationsmaS von 

15 Pearson. Um die wahrscheinlichste Klasse zu erhalten, wird 

fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen Menge 
von relevanten Wortern berechnet. Dazu wird die in der Fuzzy - 
Theorie gebrauchliche Formel aus [8] benutzt, namlich: 

20 prob(A):= Zn A (x) p(x), 

x 

wobei ji A die Zugehorigkeitsfunktion der unscharfen Menge A 
von relevanten Wdrtern einer Klasse ist und p(x) als p(x ist 
relevant fur A) interpretiert wird: 

p(x ist relevant fur A) := p(A|x) = p(x f A) / p(x) 

25 

Als Ergebnis der Klassif ikation wird die Klasse mit der wahr- 
scheinlichsten Fuzzymenge ausgegeben . 

Weiterbildungen der Erfindung ergeben sich aus den abhangi-;en 
3 0 Anspruchen . 

An Hand eines Ausfuhrungsbeispieles wird die Erfindung wexter 
erlautert . Es zeigen 

Figur 1 eine prinzipielle Darstellung des Verfahrens, 
35 Figur 2 den Ablauf der Vorbereitung des Textes, 

Figur 3 ein Verfahren zum Trainieren des Systems, 
Figur 4 das Verfahren zur Klassif ikation des Textes. 
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Aus Figur 1 ergibt sich eine prinzipielle Darstellung des 
Verfahrens. Der Text auf einem Papierdokument DOK soil klas- 
sif iziert werden. Zunachst wird das Dokument DOK mit Hilfe 
5 eines Scanners SC eingescannt und eine Bilddatei BD erzeugt . 
Mic Hilfe des in der europaischen Patentanmeldung 0 515 714 
Al bekannten Verfahrens wird der zu klassif izierende Text in 
einer Layout segment ierung SG segment iert und das Text segment 
TXT-SG gebildet . Man erh&lt wiederum eine Bilddatei, die 

10 jetzt nur noch den Textteil des Dokumentes enthalt. Die Bild- 
daten dieses Textes werden nun mit OCR in ASCII -Daten umge- 
wandelt. Diese sind in Fig. 1 mit TXT bezeichnet. Mit Hilfe 
eines Trainingslexikons REL-LEX wird die Textklassif ikation 
TXT-K durchgefuhrt , somit eine Klassenhypothese erzeugt, die 

15 angibt, mit welcher Wahrscheinlichkeit der zu klassif izieren- 
de Text einer bestimmten Klasse zuzuordnen ist . Die Klassen- 
hypothese ist in Fig. 1 mit KL-H benannt . 

Vor der inhaltlichen Analyse des Textes TXT, der in ASCII - 
20 Format vorliegt, wird eine morphologische Analyse durchge- 
fuhrt. Dazu werden im ersten Schritt alle Worter des Textes 
lemmatisiert , d.h. auf ihre Stammformen reduziert (dies er- 
folgt mit Hilfe eines Lemmatisierers LEM, der den lemmati- 
sierten Text L-TXT liefert) und dann mit einem stochastischen 
25 Tagger TAG lexikalische Mehrdeutigkeiten aufgelost. Ergebnis 
dieser Behandlung des Textes TXT ist der getaggte Text T-TXT, 
der dann weiterverarbeitet werden kann. Die Funktionsweise 
des Lemmatisierers LEM ist in [4] beschrieben, der Aufbau und 
die Funktion des Taggers in [5] . 

30 

Ausgangspunkt der weiteren Bearbeitungsschritte ist nun der 
getaggte Text T-TXT. 

Bevor die Textklassif ikation durchgefuhrt werden kann, muB 
35 eine Trainingsphase vorgesehen werden. In dieser Trainings- 
phase wird ein Relevanzlexikori REL-LEX erzeugt, das spater 
fur die Klassif ikation von Texten verwendet werden wird. Dazu 
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wird aus einer Menge von Trainingstexten TXT-TR , deren Klas- 
sen KL-TXT bekannt sind, die Haufigkeit von Klassen, von Wor- 
tern insgesamt und von Wortern in den jeweiligen Klassen ge- 
zahlt. Dies erfolgt in einer Einheit FR zur Frequenzberech- 
5 nung, in der die Wortf requenzen FR-W und die Klassenf requen- 
zen FR-KL gebildet werden. Mit diesen Haufigkeiten wird die- 
empirische Korrelation zwischen einem Wort und einer Klasse 
nach Pearson [6] berechnet: 

10 rlv(w in c) :=r(w,c)= N-Zwc-Z w-Ic 

y(N Zw 2 -(Zw) 2 ) (n-Xc 2 -(Ic) 2 ) 

dabei ist : 

N=Anzahl der Trainingstexte, 

v wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
15 S w=Anzahl der Trainingstexte mit Wort w f 

Ic=Anzahl der Trainingstexte der Klasse c. 

Diese Korrelation wird fur alle Worter und alle Klassen be- 
rechnet und gilt als Relevanz REL eines Wortes fur eine Klas- 

20 se. Dabei wird beachtet, daS die Korrelationen nicht zu klein 
werden, es wird somit ein Wert r-max eingefuhrt, der z. B. 
auf einem Signif ikanzniveau 0,001 eingestellt wird [7]. Die 
Ergebnisse, also die Relevanzen eines Wortes fur eine Klasse 
werden in einem Lexikon REL- LEX abgespeichert , das also die 

25 Relevanzen der Worter fur die Klassen enthalt. 

Nachdem das Relevanz lexikon REL - LEX erzeugt worden ist, kann 
nun der zu untersuchende Text T-TXT klassif iziert werden. Da- 
zu werden ausgewahlte Worter des Textes, die von signifikan- 

30 ter Bedeutung sind, aus dem Text mit den im Relevanzlexikon 
REL-LEX vorhandenen Beziehungen zwischen den Wortern und den 
Klassen untersucht und daraus fur den Text und fur jede Klas- 
se eine unscharfe Menge, eine sogenannte Fuzzymenge FUZ-R, 
erzeugt. Diese Fuzzymengen pro Klasse werden in einer Datei 

35 FUZ-KL abgespeichert. Die Fuzzymenge pro Klasse enthalt die 

Worte des Textes, die in der Klasse vorkommen und deren Rele- 
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vanz fur diese Klasse. Aus der Fuzzymenge wird fur jede Klas- 
se die Wahrscheinlichkeit ihrer unscharfen Menge von relevan- 
ten Wortern in einer Einheit PROB berechnet und in einer Da- 
tei PROB-KL abgespeichert . Dazu wird die Zugehorigkeitsf unk- 
5 tion der unscharfen Menge zu der Klasse bestimmt, die gerade 
dem KorrelationsmaS von Pearson entspricht. Die Wahrschein- 
lichkeit wird nach der in der Fuzzy-Theorie gebrauchlichen 
Formel berechnet, diese Formel ist bereits oben angegeben 
worden und ist aus [8] bekannt . In einer Einheit MAX zur Ma- 
10 ximumberechnung wird die Klasse ausgewahlt, fur die die hoch- 
ste Wahrscheinlichkeit ausgerechnet worden ist. Dieser wird 
der Text T-TXT zugeordnet . Diese Klasse ist in Figur 4 mit 
TXT-KL benannt . 

15 Das folgende Anwendungsbei spiel soil das Verfahren erlautem: 

News aus der US ENET - Ne wsgruppe de . comp . os . linux .misc sollen 
in die Klassen Drucker, Konf iguration, Netzwerk, Sound, Ex- 
terner Speicher, Video, Software, Entwicklung, Kernel, Kotnmu- 
20 nikation, Eingabegerate, SCSI, X- Windows und Betriebssystem 
einsortiert werden. 

Der erste Bearbeitungsschritt eines Textes ist die morpholo- 
gische Analyse. Sie transf ormiert z.B. den Satz Belm Starten 
von X kommt mit der Mirage-P32 nur ein weiSer Bildschirw in 
25 die letnmat isierte Form; 



0 l Beim beim prp 

1 2 starten starten vfin 

1 2 starten starten vinfin 
30 2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

5 6 mit mit vprt 
35 6 7 der d pron 

6 7 der der det 

6 7 der der relpron 
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7 8 Mirage mirage n 

8 9 - - - 

9 10 P32 p32 n 

10 11 nur nur adv 
5 11 12 ein ein det 

11 12 ein ein vprt 

12 13 weisser weiss adjflk 

13 14 Bildschirm bildschimt n 

13 15 Bildschirm. bildschirm. $$$ 
10 13 14 Bildschirm. bildschirm. $$$ 

14 15 . . eos_punkt 

14 15 . . punkt 

15 16 $CR$ $CR $CR$ 

15 Der Tagger lost die Mehrdeutigkeiten bei Kategorien und 
Grundf ormen auf : 

0 1 Beim beim prp 

1 2 starten starten vfin 
20 2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 rnit mit prp 

6 7 der der det 

2 5 7 8 Mirage mirage n 

8 9 - - - 

9 10 P32 p32 n 

10 11 nur nur adv 

11 12 ein ein det 

30 12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

14 15 . . eos punkt 

Im Training wurde folgendes Relevanzlexikon trainiert 
35 (Ausschnitt) : 

soundkarte n 
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<konf iguration> rlv = 0.012523 
<netzwerk> rlv = -0,033766 
<sound> rlv = 0.716692 
<externer speicher> rlv = -0.005260 

5 

monitor_n 

<video> rlv = 0.606806 

drucker_n 
10 <drucker> rlv = 0.683538 

<software> rlv = 0.014210 

gcc_ n 

<entwicklung> rlv = 0.684036 
15 <kernel> rlv = 0.103325 

<kommunikation> rlv = -0.083844 

apsf ilter_n 

<drucker> rlv = 0.561354 

20 

graf ikkarte_n 

<eingabegeraet:e> rlv = -0.008924 
<konf iguration> rlv = 0.017783 
<scsi> rlv = -0.005854 
25 <video> rlv = 0.501108 

xdm_n 

<eingabegeraete> rlv = 0.023704 
<x-winows> rlv = 0.580419 

30 

scsi_n 

<eingabegeraete> rlv = -0.065260 
<kernel> rlv = -0.026075 
<konf iguration> rlv = 0.117458 
35 <netzwerk> rlv = -0.035671 

<betriebssystem> rlv = -0.063972 
<scsi> rlv = 0.582414 
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<sound> rlv = -0.041297 

<externer speicher> rlv = 0.284832 

<video> rlv = -0.107000 



5 ethernet_n 

<konununikation> rlv = -0.0 12 769 
<netzwerk> rlv = 0.502532 
<betriebssystem> rlv = 0.014134 



10 

x_n 

<drucker> rlv = -0.073611 
<eingabegeraete> rlv = 0.005764 
<entwicklung> rlv = 0.073568 

15 <kernel> rlv = 0.005127 

<kommunikat:ion> rlv = -0.108931 
<konf iguration> rlv = -0.055763 
<netzwerk> rlv = -0.077721 
<betriebssystem> rlv » -0.046266 

20 <scsi> rlv = -0.054152 

<sound> rlv = -0.037581 
<exterae speicher> rlv = -0.081716 
<software> rlv = 0.037474 
<video> rlv = 0.197814 

25 <x-winows> rlv = 0.299126 



mirage_n 

<scsi> rlv = 0.065466 
<video> rlv = 0.221600 

30 

bildschirm_n 

<drucker> rlv = -0.023347 
< e i ngabege r ae t e > rlv = 0.036846 
<entwicklung> rlv = -0.022288 
35 <konf iguration> rlv = -0.014284 

<video> rlv = 0.216536 
<x-windows> rlv = 0.269369 
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starten_vinf in 

<kommunikation> rlv = 0.002855 
<konf iguration> rlv = 0.060185 
5 <betriebssystem> rlv = 0.006041 

<externe speicher> rlv = -0.001856 
<x-windows> rlv = 0 .260549 



starten_vf in 

10 <drucker> rlv = -0.038927 

<entwicklung> rlv = -0.037790 
<kernel> rlv = -0.009309 
<kommunikation> rlv = -0.057605 
<konf iguration> rlv = 0.035588 

15 <netzwerk> rlv = 0.045992 

<betriebssystem> rlv = -0.003344 
<sound> rlv = -0.019409 
<externe speicher> rlv = -0.043312 
<video> rlv = 0.110620 

20 <x-windows> rlv = 0.178526 



Nun werden fur die Klassen die Fuzzy-Mengen gebildet: 
Video = {x( 0.197814) , mirage ( 0 . 221600) # bildschirm ( 0 . 21653 6 ) } 
X- Windows = 

25 (startent 0.178526) f x (0.299126) , bildschirm ( 0 . 269369 ) } 

Weiterhin sind bekannt die Wahrscheinlichkeiten der Worter: 



Wort Video X -Windows 

30 x 0.24 0.19 

mirage 0.8 

bildschirm 0.43 0.33 

stamen 0.24 0.21 



35 Hieraus- und aus den Zugehorigkeitsf unktionen der Worter be- 
rechnen wir die Wahrscheinlichkeiten der Klassen-. 
Prob(Video) = 0.197814*0.24 + 0.221600*0.8 + 0.216536*0.43 
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Prob(X- Windows) = 0.178526*0.21 + 0.299126*0.19 + 
0 .269369*0 .33 
Prob (Video) = 0.3 
Prob {X -Windows ) = 0.18 
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Patentanspruche : 

1. Verfahren zur automatischen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 

5 digitale Daten mit Hilfe eines Rechners, 

• bei dem jede Textklasse durch signifikante Worter definiert 
ist , 

• bei dem in einer Lexikondatei (REL-LEX) fur jede Textklasse 
die signif ikanten Worter und deren Signifikanz fur die 

10 Textklasse gespeichert werden, 

• bei dem ein zuzuordnender Text mit alien Textklassen ver- 
glichen wird und fur jede Textklasse die unscharfe Menge 
(Fuzzymenge) von Wort en in Text und Textklasse und deren 
Signifikanz fur die Textklasse ermittelt wird, 

15 • bei dem aus der Fuzzymenge jeder Textklasse und deren Si- 
gnifikanz fur jede Textklasse die Wahrscheinlichkeit der 
Zurordnung des Textes zur der Textklasse ermittelt wird, 

• bei dem die Textklasse mit der hochsten Wahrscheinlichkeit 
gewahlt wird und dieser der Text zugeordnet wird. 

20 

2. Verfahren nach Anspruch 1, 

• bei dem der zu klassif izierende Text vor der Inhaltsanalyse 
in einem Lemmatisierer (LEM) lemmatisiert wird, 

• bei dem der lemmatiserte Text (L-TXT) einem stochastischem 
25 Tagger (TAG) zugefuhrt wird, urn lexialische Mehrdeutigkei- 

ten aufzulosen, 

• und bei dem der getaggte Text (T-TXT) zur Textklassif ikati- 
on verwendet wird. 

30 3. Verfahren nach Anspruch 2, 

• bei dem zur Klassif ikation des Textes ein Relevanzlexikon 

(REL-LEX) erzeugt wird, 

• bei dem dazu eine Menge von Trainings texten, deren Klassen 
bekannt sind, verwendet wird, 

3 5 • bei dem aus dieser Menge die Haufigkeit der Klassen, von 
Wortern und von Wortern in den jeweiligen Klassen gezahlt 
wird, 
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• bei detn mit diesen Hauf igkeiten eine empirische Korrelation 
zwischen einem Wort und einer Klasse berechnet wird r 

• bei dem diese Korrelation fur alle Worter und alle Klassen 
berechnet wird und das Ergebnis der Berechnung als Relevanz 

5 eines Wortes fur eine Klasse in einer Datei gespeichert 

wird, die als Relevanzdatei oder Relevanzlexikon (REL-LEX) 
verwendet wird. 

4. Verfahren nach Anspiruch 3, 
10 bei dem die Korrelation (Relevanz) zwischen einem Wort und ei- 
ner Klasse nach folgender Formel erf olgt : 

N * X w c - T w - £ c 

rlv(w in c):=r(w,c) = , 

JlN-Zw 2 -(Zw) 2 ).(n*Zc 2 -(Ic) 2 ) 

15 dabei ist: 

N=Anzahl der Trainingstexte, 

X wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
v w=Anzahl der Trainingstexte mit Wort w, 
Vc=Anzahl der Trainingstexte der Klasse c. 

20 

5. Verfahren nach Anspruch 4, 

bei dem nur Korrelationen > einem gewahlten Wert r-max be- 
rucksichtigt werden, der auf einem Signif ikanzniveau von z. 
25 B. 0.001 festgelegt wird. 

6 . Verfahren nach Anspruch 5 , 

• bei dem der zu untersuchende Text (T-TXT) und das Relevanz- 
lexikon (REL-LEX) dazu verwendet wird, urn fur jede Klasse 

30 die unscharfe Menge (Fuzzymenge) der signif ikanten Worter 
pro Klasse und deren Relevanz pro Klasse zu ermitteln, 

• bei dem aus der Fuzzymenge pro Klasse und deren Relevanz 
fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen 
Menge von relvanten Wortern berechnet wird, 
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• bei dem aus den Wahrscheinlichkeiten pro Klasse die Klasse 
mit der maximalen wahrscheinlichkeit ermittelt wird und 
dieser Klasse der Text zugeordnet wird. 

5 7 . Verf ahren nach Anspruch 6 , 

bei dem die Berechnung der Wahrscheinlichkeit nach der Formel 

prob(A): = Z H A (x) • p(x), 

X 

10 

erfolgt, wobei die Zugehdrigkeitsf unktion bedeutet, die 
angibt, in wieweit die Fuzzymenge einer Klasse zugeordnet 
wird und die gerade dem Korrelationsmafc nach obiger Formel 
entspricht . 

15 

8. Verwendung des Verfahrens nach einem der vorhergehenden 
Anspruche zur automat ischen Diagnose aus medizinischen Befun- 
den, 

bei dem medizinische Befunde als Text und eine Krankheit als 
20 eine Klasse aufgefafit wird 

bei dem in einer Trainingsphase das zur Klassif ikation erfor- 
derliche Wissen aus einer Menge von Befunden, deren Diagnose 
bekannt ist, automatisch gelernt wird 

und bei dem ein neuer Befund nach der Technik der Fuzzymengen 
25 klassif iziert wird. 
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